ChinaXiv 合 作 期 刊 
加 时 时 时 134 传媒 技术 


热度 分 析 技 术 在 与 情 吹 哨 系统 中 的 应 用 


郑 创 伟 谢 志 成 陈 少 彬 邢 谷 涛 陈 义 飞 
(深圳 市 创意 智慧 港 科 技 有 限 责 任 公司 ， 广 东 深圳 518034 ) 


摘要 :【 目的 ] 为 提高 报 业 集团 与 情 相 关 工 作 的 准确 度 和 效率 , 文章 研究 热度 分 析 技 术 在 吹 哨 系统 中 的 实际 应 用 效果 。 
【 方法 】 提 出 热度 及 关联 度 计算 ， 通 过 热度 话题 计算 、 关 键 词 的 关联 相关 度 分 析 及 关联 热度 计算 ， 最 后 完成 事件 热 


度 预测 。【 结果 】 通 过 热度 分 析 技 术 实 际 应 用 ， 满 足 日 常 工作 中 的 热点 话题 捕 提 和 及 时 跟踪 ， 对 和 与 情 管理 具有 重要 
实施 。【 结论 】 通过 本 研究 证 明了 吹 哨 系统 中 所 使 用 的 热度 计算 和 关联 热度 计算 等 方法 ， 极 大 地 提高 了 吹 哨 系统 的 
精确 性 ， 使 用 户 可 以 从 海量 新 闻 信 息 中 高 效 、 智 能 地 获得 受 关注 、 感 兴趣 、 有 价值 的 目标 新 闻 信 息 ， 从 而 更 加 有 力 


地 支撑 与 情 监测 、 新 闻 追 踪 、 新 闻 生 产 等 业务 工作 。 
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上 导语 往 会 根据 报道 数量 及 频率 来 进行 衡量 。m 
5 僵 情 热点 事件 是 当下 互联 网 时 代 不 可 避免 的 事物 近年 来 对 网 络 僵 情 分 析 的 研究 已 经 逐步 深入 到 了 
CO 之 一 ， 锚 情 热 点 事件 发 生 后 ， 民 众 往往 会 迅速 对 其 热 。 普通 学 者 的 实验 课题 探讨 中 ,课题 一 般 聚 焦 于 在 微 博 、 
全 切 关 注 ， 并 且 在 此 过 程 中 民众 会 持续 发 表 对 该 事件 的 人 微 信 、 论 坛 等 社交 网 络 或 应 用 中 ， 这 些 社交 场景 中 存 
QQ 观点 、 态 度 或 表达 一 定 的 情绪 。 这 类 网 络 粤 情 热点 ”在 大 量 的 活路 用户, 一 旦 有 热点 话题 出 现 ， 其 传播 速 
~ 事件 从 开始 到 发 生 一 段 时 间 后 ， 最 终 往 往 会 形成 一 个 ” 度 会 以 指数 级 增长 。 热 点 网 络 僵 情 主 要 是 依托 网 络 进 
ac 聚焦 点 ， 代 表 了 网 民 的 核心 情绪 和 利益 诉求 。 行 传 播 ， 一 个 盟 情 事件 被 大 众 关 注 、 评 论 、 传 播 ， 从 
在 当前 数据 爆炸 的 时 代 ， 如 何 结合 新 闻 信息 的 海 ” 而 引起 更 广泛 的 社会 关注 。 在 热度 分 析 方面 ， 国 内 研 
| 量 历史 数据 ,为 编辑 、 记 者 等 新 闻 媒 体 从 业者 提供 快速 、 ” 究 者 运用 影响 力 传播 模型 描述 热点 事件 ， 这 种 模型 通 
CS 精准 、“ 千 人 千 面 ”的 个 性 化 新 闻 线 索 推 荐 和 智能 歇 ” 过 对 关键 词 传播 次 数 进行 计数 ， 数 值 大 则 代表 影响 力 
GO 哨 预 警 文 持 ， 增 强 与 情态 势 感知 能 力 和 新 闻 洞 察 力 ， 高 ， 反 之 代表 影响 力 较 低 。 影 响 力 传播 模型 可 以 用 于 


有 效 提升 办 公 效 率 和 新 闻 创 造 能 力 ， 是 当前 需要 解决 
的 问题 。 ”为 解决 这 一 问题 ， 利 用 热度 分 析 技术 可 以 
从 海量 新 闻 信息 中 高 效 、 智 能 地 获得 受 关注 、 感 兴趣 、 
有 价值 的 目标 新 闻 信息 ， 从 而 更 加 有 力 地 支撑 与 情 监 
测 、 新 闻 追 足 、 新 闻 生 产 等 业务 工作 。 
1. 热度 分 析 技 术 相 关 研 究 

通过 对 热度 分 析 相 关 文 献 整 理 ， 发 现 网络 与 情 热 
度 分 析 可 以 从 两 个 角度 来 进行 。 第 一 是 从 用 户 和 角度 出 
发 , 分 析 用 户 在 论坛 、 微 博 等 平台 上 发 布 的 话题 情况 ， 
话题 是 由 用 户 对 事件 进行 描述 所 产生 的 ， 热 点 话题 和 
普通 话题 的 主要 区 别 在 于 用 户 使 用 多 少 信 息 量 来 对 其 
进行 描述 、 消 耗 了 多 少 网 络 资源 ， 以 及 话题 持续 讨论 
的 时 间 等 。 第 二 是 从 媒体 角度 出 发 ， 分 析 新 浪 、 搜 狐 
等 新 闻 网 站 对 热点 事件 转发 、 排 名 等 情况 。 一 个 话题 
的 出 现 与 传播 ， 是 经 过 大 众 广泛 讨论 并 且 媒 体 进行 报 
道 和 转载 之 后 产生 的 ， 其 中 是 否 能 成 为 热点 话题 ， 往 


评判 社交 网 络 中 不 同 使 用 者 之 间 所 产生 的 交互 程度 。 
同时 ， 通 过 分 析 话 题 的 相关 消息 , 以 及 转载 次 数 等 来 
评判 其 是 否 属于 热点 话题 ， 利 用 用 户 关注 度 来 构建 影 
响 力 传播 模型 ， 通 过 关键 词 的 传播 次 数 反 映 某 个 事件 
影响 力 的 大 小 。 另 外 还 有 学 者 提出 通过 时 间 单 元 检测 
发 现 热点 话题 ， 即 将 某 一 话题 限定 在 单元 时 间 内 ， 然 
后 根据 其 特征 分 布 情况 来 确定 特征 单元 ， 再 对 其 进行 
重组 ， 最 后 生成 热度 话题 , 以 及 进一步 确定 出 该 热度 
话题 所 发 生 的 时 间 段 ， 达 到 更 加 精准 预测 的 目的 。™ 

本 研究 的 热度 分 析 技 术 主 要 是 针对 网 络 大 众 感 兴 
趣 的 话题 进行 研究 ,使 算 力 能 聚焦 于 用 户 关 注 的 话题 ， 
避免 资源 浪费 。 通 过 计算 话题 的 热度 ， 可 以 对 不 同 话 
题 的 影响 力 进行 排序 ， 使 得 在 歇 哨 系统 中 能 够 对 排名 
靠 前 的 话题 进行 预警 。 从 而 根据 预警 信息 提前 做 出 相 
应 准备 ， 尤 其 是 当 遇 到 极端 情绪 等 ， 可 以 对 其 进行 正 
确 引 导 ， 避 人 免 话 题 对 其 他 民众 产生 二 次 负面 影响 ， 成 
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为 社会 不 稳定 因素 。 针 对 不 同 话题 影响 力 ， 吹 哨 系 统 
还 可 以 采取 不 同 级 别 进 行 处 理 ， 更 加 精准 地 开展 引导 
工作 ， 提 高 与 情 分 析 的 有 效 性 。 
2. 热度 及 关联 热度 计算 
2.1 热度 计算 

在 本 吹 哨 系统 中 ， 要 实现 从 热点 话题 的 发 现 及 
预测 ， 两 者 对 媒体 行业 都 至 关 重 要 。 而 现 有 的 研究 
成 果 大 多 使 用 的 方法 是 进行 热度 计算 ， 再 结合 以 往 
经 验 数据 来 进行 验证 ， 判 断 其 是 否 具 有 有 效 性 。 这 
种 方式 往往 具有 一 定 滞 后 性 ， 无 法 在 一 个 话题 刚 出 
现 的 时 候 就 能 有 效 预测 其 发 展 趋势 ， 无 法 有 效 帮 助 
政府 部 门 及 时 、 精 准 地 调控 僵 论 方向 ， 也 无 法 根据 
设 定 的 监测 规则 来 持续 跟踪 监测 话题 。 因 此 ， 本 研 
究 采 用 Z 算 法 对 文章 热度 .敏感 度 等 进行 分 析 和 归 类 ， 
并 将 分 析 和 归 类 结果 保存 ， 以 便 能 够 及 时 发 现 热点 
话题 。 中 具体 过 程 如 下 。 

首先 ， 将 语义 分 解 后 的 新 闻 僵 情 数据 ， 即 词语 化 
的 数据 , 进行 二 元 分 布 统计 , 统计 各 词语 出 现 的 次 数 ， 
得 出 二 元 分 布 统计 结果 。 

接着 ， 将 二 元 分 布 统计 结果 利用 标准 分 数 Z-Score 
算法 进行 计算 ， 得 到 各 词语 的 热点 值 。 公 式 如 下 : 


S 

其 中 ,公式 中 外 为 词 项 出 现 次 数 ; 卫 为 词 项 出 现 
次 数 平均 数 ; 5 为 标准 差 ; 结果 Z 是 以 标准 差 为 单位 
的 离 均 差 ， 用 以 表示 词语 的 热点 值 。" 

将 热点 值 大 于 预 设 的 热点 上 限 阔 值 的 值 存 入 热点 
词 库 中 的 热点 活跃 词 库 ,将 热点 值 小 于 预 设 的 热点 下 
限 阐 值 的 值 存 人 热点 词 库 中 的 热点 惰性 词 库 ; 热点 词 
库 与 领域 词 库 相 关联 , 领域 词 库 包括 新 闻 、 博 客 、 论 坛 、 
社交 网 站 等 领域 ; 每 个 热点 词 库 中 的 热点 词 来 源 于 哪 
些 领域 都 可 以 进行 对 应 查询 。 

再 根据 词语 热点 值 和 预 设 的 热点 词 库 判 定 词 语 化 
数据 中 的 热点 词 的 共 现 冰 值 。 

根据 新 闻 僵 情 数 据 中 出 现 的 词 项 ， 通 过 如 下 公式 


_ 下 ~ 肌 
-EP 

其 中 Wx 为 新 闻 词 项 集合 ,Wh 为 热点 活跃 词 集合 。 
再 通过 如 下 公式 计算 热点 惰性 词 的 共 现 阔 值 P2 : 
WAT 


| 


P2= 


其 中 Wx 为 新 闻 词 项 集合 ,Wre 为 热点 惰性 词 集合 。 
然后 ， 根 据 热点 活路 词 和 热点 惰性 词 的 共 现 国 值 P1 
和 P2， 进 行 线性 加 权 计 算 ， 得 到 热度 值 。 热 度 值 的 计 
算 公 式 如 下 : 
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H=Yz,(P1-P2) 


i=l 

其 中 Zi 为 第 i 个 词语 的 热点 值 ，P1 为 热点 活跃 词 
共 现 闵 值 ，P2 为 热点 惰性 词 共 现 闵 值 。 人 然后， 根据 热 
度 值 对 新 闻 和 与 情 数据 进行 热度 判定 ， 对 热点 值 根 据 预 
设 的 热度 等 级 评判 标准 进行 等 级 判定 ; 将 符合 热度 等 
级 评判 标准 的 新 闻 鳞 情 数 据 归 档 至 热点 文档 ， 将 不 符 
合 热 度 等 级 评判 标准 的 新 闻 盟 情 数据 归档 至 非 热 点 文 
档 。” 

在 敏感 度 分 析 上 ， 将 热点 活跃 词 库 与 预 设 的 敏感 
词 库 进行 比 对 得 到 热点 活跃 词 库 中 包含 的 敏感 词 数量 ， 
再 通过 下 述 公 式 计算 敏感 值 作为 新 闻 敏感 度 S: 

Ws 
一 Hy 

其 中 所 为 包含 敏感 词 数量 ，Wn 为 领域 词 库 中 新 
闻 中 的 热点 活跃 词 数量 。 

2.2 关联 相关 度 分 析 

盘 情 预测 就 是 需要 对 话题 未 来 的 趋势 做 出 判断 ， 
一 般 来 说 相关 话题 的 热度 值 越 高 则 话题 成 为 热点 的 概 
率 也 越 大 ， 也 就 是 说 所 需要 预测 的 话题 成 为 热点 的 概 
率 与 其 相关 话题 热度 或 数量 成 一 定 的 关联 关系 。 话 题 
间 的 关联 关系 分 析 主 要 包含 了 对 时 间 、 地 点 、 人 物 及 
行为 等 不 同类 型 的 词 特征 之 间 的 关联 度 计算 ， 以 及 对 
其 进行 加 权 。™ 
2.2.1 时 间 相 关 度 计算 

话题 的 时 间 相 关 度 主要 是 指 两 个 话题 发 生 的 时 间 
差 是 否 在 一 个 指定 的 范围 内 。 需 要 计算 时 间 的 间隔 并 
以 之 判定 相关 度 ， 如 果 在 范围 内 ， 则 认为 两 个 话题 在 
时 间 上 是 关联 的 ， 且 时 间 间 隔 越 短 ， 则 关联 性 越 强 ， 
公示 如 下 。 其 中 ，time (也 ) 代表 某 一 个 话题 的 时 间 ， 
ZT 和 工 则 代表 分 别 需要 预测 相关 度 的 两 个 话题 。 如 果 
需要 分 析 话 题 出 现 的 先后 顺序 ， 则 将 time(T) 按照 
时 间 顺 序 进行 排列 即 可 。 


Ss 


time(T1) — time(T,) 


RelT(T,T7)) = 一 一 一 一 一 
( 1 2 maxrirjRel  (T, T)) 


2.2.2 地 点 相关 度 计算 

在 话题 中 的 地 点 名 称 等 信息 是 计算 该 相关 度 的 主 
要 依据 ， 用 主要 地 点 间 的 距离 来 计算 该 相关 度 值 。 因 此 
需要 构造 一 个 地 点 相关 的 名 词 集合 ， 具 体 到 城市 的 区 级 
或 农村 的 乡 级 ， 并 且 要 对 应 更 高 行政 区 域 建立 一 个 层次 
树 。 如 果 预 测 的 话题 所 属地 域 之 间 ， 距 离 在 一 定 的 范围 
内 ， 则 可 以 认为 其 是 相互 关联 的 ， 关 联 强 度 则 可 以 根据 
间隔 距离 计算 ， 距离 越 近 则 说 明 关 联 程 度 越 高 。 公 式 如 
下 ， 其 中 Ilocate (也 ) 表示 话题 发 生 的 主要 地 点 ， 其 与 
locate( 7 ) 之 差 则 表示 两 个 话题 发 生地 点 在 层次 树 上 
的 路 径 长 度 。 


126| 传媒 技术 


202310.00073v1 


chinaXiv 


locate(T1) — locate(T 
2.2.3 人 物 相关 度 计算 
人 物 相关 度 主 要 是 指 被 预测 话题 所 涉及 的 人 物 或 
机 构 是 否 相 互 之 间 关 注 或 有 其 他 关系 ， 如 果 存 在 好 
友 或 其 他 关系 ， 则 认为 这 两 个 话题 在 人 物 上 是 关联 
的 。 但 往往 在 实际 应 用 中 ， 微 博 或 微 信 好 友 关 系 是 无 
法 取得 的 ， 因 此 可 以 利用 话题 中 的 人 名 进行 计算 ， 例 
如 通过 人 名 重复 的 数量 来 进行 计算 。 公 式 如 下 ， 其 中 
People (也 ) 为 某 一 话题 中 涉及 人 物 名 称 等 的 集合 ,了 
和 则 代表 两 个 需要 预测 的 话题 。 
people(T1) N people(T,) 
maxrirjRel (TT,)) 


Rel? (T1,T2) = 


2.2.4 行为 相关 度 计算 

行为 相关 度 主要 是 收集 话题 行为 的 特征 词 来 进行 
计算 ， 如 果 涉 及 的 行为 相同 或 相近 ， 则 认为 其 是 相关 
的 。 公 式 如 下 ， 其 中 丸和 4 代表 两 个 话题 中 行为 特 
征 词 的 集合 ，maxsim (w，4,) 则 为 词语 语义 的 相似 度 ， 
IDE (wm ) 是 根据 预料 库 中 词 信息 量 统计 得 到 。 
De (maxSim(w, A2)* IDF(w)) 

en, IDF CW) 
(maxSim(w, A1) 六 IDF(w)) 
IDF(W) 


1 
Rel4(A1,42) ==( 


十 De 


Den, 


2.3 关联 热度 计算 

针对 与 情 热 度 的 计算 与 预测 研究 当前 在 学 术 界 已 
经 取得 了 一 定 的 成 果 ， 但 大 部 分 算法 主要 是 针对 数据 
进行 分 析 , 没 有 对 网 络 与 情 本 身 的 特点 进行 数据 分 析 ， 
尤其 是 忽视 了 网 络 信息 之 间 的 互联 性 。 因 此 本 研究 在 
基于 热度 计算 的 基础 上 ， 结 合 了 关联 分 析 的 思想 ， 综 
合 考虑 时 间 、 地 点 、 人 物 、 行 为 的 相关 性 ， 对 不 同属 
性 的 相关 关系 进行 挖掘 ， 构 建 具有 关联 关系 的 与 情 热 
度 预测 模型 ， 通 过 分 析 相 关 事件 或 信息 的 关系 ， 对 热 
度 建立 相应 的 回归 模型 ， 使 得 热度 值 更 加 贴近 实际 情 
况 。 

关联 热度 计算 主要 就 是 根据 话题 热度 按时 间 对 其 
进行 分 片 ， 再 根据 命名 实体 对 其 进行 识别 ， 例 如 通过 时 
间 信 息 计 算出 时 间 相 关 度 、 通 过 地 点 信息 计算 出 地 点 相 
关 度 、 通 过 人 物 信息 计算 出 人 物 相关 度 、 通 过 行为 数据 
计算 出 行为 相关 度 ， 最 后 建立 相关 关系 连接 图 。™ 

在 本 吹 哨 系 统 中 ， 建 立新 闻 话 题 间 的 关系 图 ， 青 
计算 出 热度 值 ， 并 将 其 设置 为 初始 权重 值 ， 用 于 某 一 
时 间 段 内 的 关联 热度 计算 。 热 度 计算 完成 后 ， 再 利用 
相关 度 算 法 来 对 话题 热度 的 变化 趋势 进行 预测 和 分 析 ， 
实现 吹 哨 系统 预警 。 
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2.3.1 建立 话题 间 关 系 

设 定 A=<V，E> 为 i 的 关系 图 ， 如 图 1 所 示 ， 其 
中 为 给 定 话题 ,集合 {94,524…Vn-yvn} 为 检索 到 的 
与 1 相关 的 话题 集合 ， 下 = {v152,V1V3, Vn-1Vn} 是 边 
的 集合 ， 值 为 话题 间 的 相关 程度 ， 当 且 仅 当 两 个 顶点 
7172z 间 关联 度 不 小 于 浆 值 时 ， 边 记 zz 存在 。 


图 1 话题 关系 联系 图 


建立 关系 连接 图 后 ,下 一 步 将 图 转化 为 矩阵 形式 ， 
和 矩阵 中 的 行 、 列 表示 联系 图 中 的 点 ， 和 矩阵 中 的 值 表示 
关系 图 中 点 间 的 度 。 如 以 下 图 2 所 示 ， 其 中 Rj 是 节点 
i 和 节点 j 间 的 相关 程度 ， 相 关 度 小 于 阔 值 的 即 不 存在 
边 立 则 值 为 0。 
v1) v2) … wD) … 270D … Vn) 


v1) Ri Riz YY Ri ‘Ry «Ri 
v2) Ray Raz … Ry oe Ry … Ron 
vo) Ra Roz 1 Ri % Ry 1 Ran 
v0) Rs Ri Rj Rj Rn 
vn) Ra Rr CO Ra oo Ry Ron 


图 2 矩阵 形式 列表 图 


2.3.2 ”相关 话题 关联 重要 度 计算 

定义 变换 矩阵 M， 公 式 如 下 : 

M=d.R+(1—d) 

其 中 ，d 为 阻尼 系数 ， 范 围 介 于 0 至 1 之 间 。 该 
抢 阵 主要 作用 在 于 衡量 每 个 点 对 待 预测 点 的 影响 力 。 
矩阵 M 具有 唯一 稳定 分 布 h = M7 .hh。 该 模型 的 矩阵 
表示 为 : 

六 = [aR+(L 一 oo 

得 到 的 h 值 则 可 以 用 于 表示 话题 在 关系 图 中 的 重 
要 程度 。 
2.3.3 热度 预测 

在 吹 哨 系统 中 ， 需 要 对 具有 少量 当前 信息 的 僵 情 
短期 热度 趋势 进行 预测 ， 判 断 该 话题 是 否 会 成 为 热点 
话题 ， 本 研究 采用 灰 度 预测 方法 来 进行 趋势 预测 。 通 
常 使 用 GM (1，1 ) 模型 来 对 话题 热度 进行 预测 ， 计 
算 过 程 如 下 中; 
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a. 输入 初始 序列 X® = (x (1),x0)(2), K, x (n)); 

b. 对 初始 序列 进行 一 次 累加 生成 ， 

XD = (xH ,x C2),K, x n) )X1 ， 

c. 生 成 X1 的 紧邻 均值 序列 

70D = (zW(2), Z(0D(3)， 及 zn)) 

ZW (Kk) = 0.5xW (Kk) + 0.5xW Kk — 1) 

d. 即 GM (1，1) 的 灰 微 分 方程 模型 为 

Xo(k) + az VK) =b 

式 中 a 为 发 展 系数 ,b 为 灰色 作用 量 。 设 2 为 竺 估 
参数 向 量 ， 即 2 = (a,5)?， 则 灰 微 分 方程 的 最 小 二 乘 估 
计 参 数列 满足 

全 = (BB) 1B'Y, 


一 ZGD(2) 1 X(0(2) 
一 ZG(3) 1 ,y= x(0) (3) 


-ZVn) 1 


其 中 ，B = 


K 
xXx(0) (n) 
e. 求 得 微分 方程 得 解 为 
RVCk+1) = be (0) — | -中 > 
f 还 原 到 原始 数据 ， 得 到 
KOK + 1) = RD + 1) — CDK) 
得 到 热度 趋势 预测 区 间 ， 结 束 。 
2.4 热度 预测 
在 笔者 实际 工作 中 主要 用 到 的 方法 是 基于 事件 关 
联 的 方法 对 僵 情 趋势 进行 预测 ， 并 判断 其 是 否 成 为 热点 
话题 。 这 种 模型 主要 是 基于 假设 “事件 是 相互 关联 且 相 
影响 的 ”， 事 件 与 事件 之 间 存 在 着 一 定 的 联系 ， 并 且 
可 能 会 相互 影响 或 约束 ， 其 算法 框架 如 图 3 所 示 m1: 


EC 
1 
| | 搜索 引 敬 搜索 
1 
一 一 1 | 相似 度 计算 
| Cy 选择 符合 条 件数 据 
| 
| 原始 数据 预 处 理 
1 
et DD 建立 关系 连接 图 
=====---- 
了 网 | | ”相关 事件 检索 J 
| 计算 关联 热度 
报 业 集团 数据 D> 语义 相似 度 计算 
| [从 全 条件 到 
选择 符合 条 件数 据 


图 3 热度 预测 框架 图 


能 够 看 出 其 具体 流程 主要 包括 1: 

(1 ) 检 索 出 近 段 时 间 内 与 待 预测 话题 相关 的 事件 ， 
在 设置 检索 词 时 需 注 意 特 征 词 的 选取 。 

(2 ) 对 集团 本 地 数据 库 进 行 检索 ， 与 互联 网 上 的 
检索 进行 比 对 ， 并 分 析 话 题 间 的 相互 关系 ， 获 得 与 与 
情事 件 有 关 的 文字 信息 数据 。 但 在 数据 收集 后 需要 对 
数据 信息 进行 去 噪 等 处 理 ， 保 证 一 定 的 准确 性 。 
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(3 ) 对 整理 出 的 文本 信息 采用 聚 类 算法 分 析 ， 提 
取出 其 可 能 包含 的 话题 数量 。 

(4 ) 对 文本 数据 进行 时 间 排 序 ， 按 照 实 际 需求 来 
设 定时 间 段 ， 在 每 一 个 时 间 段 根据 事件 发 生 的 时 间 、 
人 人物、 地点、 行为 等 ， 计 算出 话题 间 的 相关 度 ， 从 而 
得 到 所 有 话题 的 关系 ， 即 关系 连接 图 。 

(5 ) 分 析 不 同 话题 的 重要 程度 ， 并 且 预 测 关联 热 
度 ， 最 终 计算 出 该 话题 或 信息 成 为 热点 的 可 能 性 。 
3. 实验 结果 及 分 析 
3.1 实验 设计 

本 吹 哨 系统 在 对 与 情 热 度 进行 预测 后 ， 进 一 步 利 
用 后 验 差 检验 方法 来 验证 实验 效果 ， 具 体 步 又 包括 : 

(1) 计算 原始 序列 的 平均 值 ; 

(2 ) 计算 原始 序列 的 均 方 差 S1; 

(3 ) 计算 残 差 均值 ; 

(4) 计算 残 差 均 方差 S2; 

(5 ) 计算 S2 与 S1 的 比值 C 

(6 ) 计算 小 残 差 概率 了 
3.2 实验 结果 

本 研究 分 别 使 用 P 值 和 C 值 来 衡量 突 发 熏 情 的 预 
测 效 果 ， 并 设计 了 相应 的 后 验 差 检验 判别 参照 表 ( 见 
表 1) 。 


表 1 后 验 差 检验 判别 参照 表 
P C 模型 精度 
>0.95 <0.35 优 
>0.80 <0.5 合格 
>0.70 <0.65 狗 强 合格 
<0.70 >0.65 不 合格 
在 数据 库 中 对 “ 孙 小 果 案 ”相关 数据 进行 热度 预测 ， 
分 别 包括 长 期 预测 、 短 期 预测 、 普 通 灰 度 预测 和 关联 


热度 预测 ， 所 得 到 的 实验 结果 如 下 : 
表 2 实验 结果 表 


P le 

长 期 预测 0.7692 0.6038 
短期 预测 0.8385 0.3846 
普通 灰 度 预测 0.9125 0.4129 
关联 热度 预测 1 0.0192 


从 表 2 结果 看 出 ， 关 联 热度 计算 的 方法 对 突 发 与 
情 的 预测 效果 非常 好 ， 验 证 了 该 吹 哨 系统 中 所 使 用 的 
热度 分 析 技 术 的 可 行 性 和 有 效 性 。 
结语 

本 研究 对 报 业 集团 吹 哨 系统 中 所 使 用 的 热度 计算 、 
关联 相关 度 分 析 、 关 联 热度 计算 ， 以 及 热度 预测 等 进 
行 了 深入 分 析 ， 分 别 列 出 了 相关 公式 和 模型 中 涉及 的 
相关 因素 ， 例 如 时 间 、 地 点 、 人 物 及 行为 等 不 同类 型 
的 词 特征 ， 从 而 计算 出 事件 之 间 的 关联 度 ， 并 预测 是 
和 否 会 发 展 成 为 热点 事件 。 通 过 上 述 方法 和 实际 应 用 ， 
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证 明报 业 集 团 吹 哨 系统 具有 较 好 的 精确 性 ， 使 用 户 可 
以 从 海量 新 闻 信 息 中 高 效 、 智 能 地 获得 受 关注 \ 感 兴趣 、 
有 价值 的 目标 新 闻 信息 ， 从 而 更 加 有 力 地 支撑 与 情 监 
测 、 新 闻 追 踪 、 新 闻 生 产 等 业务 工作 。 政 府 也 可 以 借 
助 该 系统 引导 与 情 方 向 ， 对 重大 与 论 事件 可 以 快速 做 
出 反应 。 这 可 以 在 一 定 程 度 上 抑制 大 众 对 舆论 事件 产 
生 的 消极 情绪 ,将 有 利于 政府 正确 引导 与 情 发 展 趋 势 ， 
以 及 保持 社会 和 谐 稳定 。 印 
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